从多基因性到泛基因性|客观品读Cell杂志关于GWAS的评述
自从2005年发表了第一篇关于复杂疾病(年龄相关性黄斑变性,age-related macular degeneration)的全基因组关联研究(Genome wide association study,GWAS)以来(Klein RJ, Zeiss C, Chew EY, et al. Complement factor H polymorphism in age-related macular degeneration. Science 2005;308:385–389.),至今为止已经发表了2982篇文章,报道了31525个单核苷酸多态性(Single Nucleotide Polymorphism,SNP),发现了36948种SNP与性状关联性(数据来源于GWAS catalog,https://www.ebi.ac.uk/gwas/,2017-06-19 update,入选标准是关联性P值小于1x10-5,研究array不少于100,000个SNPs)。
中国人群的GWAS研究开展的比欧洲人群稍晚,第一个中国人群的GWAS研究发表于2008年12月(Yang TL, Chen XD, Guo Y et al. Genome-wide copy-number-variation study identified a susceptibility gene, UGT2B17, for osteoporosis. Am J Hum Genet. 2008 Dec;83(6):663-74.)。
此研究由美国密苏里大学堪萨斯分校(University of Missouri-Kansas City)的邓红文教授(邓教授现在Tulane University)联合西安交通大学和湖南师范大学共同发表,此文应用Affymetrix 500K Array对700个老年样本(350个髋部骨折的患者和350个对照样本)做基因分型,发现UGT2B17基因的缺失变异与骨折有关。但是此结果并未达到全基因组显著性水平(5x10-8),也并未入选GWAS catalog。
入选GWAS catalog的中国人群第一篇GWAS研究是由安徽医科大学的张学军教授发表于2009年2月的关于银屑病的研究(Zhang XJ, Huang W, Yang S et al. Psoriasis genome-wide association study identifies susceptibility variants within LCE gene cluster at 1q21. Nat Genet. 2009 Feb;41(2):205-10.)。
此后掀起了一波GWAS研究的浪潮,各个国家在各个人群中研究各种复杂疾病和性状。
然而随着越来越多的文章的发表,科学家们发现,GWAS所发现的遗传变异(Genetic variant)大部分是常见变异(Common variant),只能解释很小一部分的性状变异(Phenotype variation),即所谓的遗传度缺失(Missing heritability)。而且GWAS所发现的遗传变异大部分在内含子区域和基因间(Intergenic)区域。而且这些常见变异的效应也比较小,大多常见变异的OR值在1.2-1.6左右(Hindorff LA, Sethupathy P, Junkins HA et al. Potential etiologic and functional implications of genome-wide association loci for human diseases and traits. Proc Natl Acad Sci U S A. 2009 Jun 9;106(23):9362-7.)。
所以,科学家们推测missing heritability的其中几个原因。第一,有可能是现阶段GWAS的power还不够,不能发现效应更小的基因(根据Pritchard的Cell文章的泛基因性Omnigenic假说,这些基因可能是core gene,也可能是peripheral gene),根据这个推测,国际上又开始了一波GWAS meta analysis研究。
其中比较成功的是关于骨质疏松的GEFOS consortium(GEnetic Factors for OSteoporosis,www.gefos.org),总部在荷兰的鹿特丹,数据分布在全球各地。GEFOS纳入了57个GWAS cohort,研究结果先后在Nature和Nature Genetics发表多篇论文(Richards JB, Zheng HF, Spector TD. Genetics of osteoporosis from genome-wide association studies: advances and challenges. Nat Rev Genet. 2012 Jul 18;13(8):576-88.)。
中国科学家也陆续开展了不少GWAS meta分析,比如安徽医科大学张学军教授,中日友好医院崔勇教授联合伦敦国王学院(King’s College London),开展的关于系统性红斑狼疮(Systemic Lupus Erythematosus,SLE)的研究。
第二,造成missing heritability的另一个重要的原因可能是罕见变异(Rare variant)。并且有科学家认为,GWAS所发现的常见变异并非真正的“致病变异”,而是由罕见变异引起的协同效应(Dickson et al, Rare variants create synthetic genome-wide associations. PLoS Biol 8(1):e1000294, 2010)。
此假说并没有得到主流的认可,因为罕见变异并不能解释大部分的GWAS关联信号,后面要提到的泛基因性假说认为,效应小的常见变异也可能是causal的,但并不是核心基因(Core gene)。
所以,从2008年开始,国际上开始发起基于二代测序(Next Generation Sequencing,NGS)的基因组计划,包括1000 Genomes Project(http://www.internationalgenome.org/),和2010年发起的UK10K Project(http://www.uk10k.org/),包括全外显子测序(Whole exome sequencing)和全基因组测序(Whole genome sequencing),以期望发现外显子区域和其他区域的罕见变异对疾病和性状的效应,填补missing heritability。
1000 Genomes Project分别在2012年和2015年完成一期和三期,总共全基因组测序2500个样本。UK10K Project也2015年完成,全基因组测序4000个样本,全外显子测序6000个样本,并在Nature上发表文章。
UK10K的影响力远不如1000 Genomes,因为UK10K并非一个全球性项目,只测了UK的样本;UK10K的侧重点是研究罕见变异和疾病性状的关系,而不是一个群体遗传学项目。比如UK10K的骨密度项目,整合了全基因组测序数据,全外显子测序数据,和GEFOS GWAS数据,发现了三个罕见低频变异与骨密度相关,效应是常见变异的4倍。同时也研究表明,GWAS信号大多富集在染色质活性强的区域。
中国科学家在编码罕见变异方面也做了很多工作,比如安徽医科大学张学军教授对781个银屑病患者和676对照多了全外显子测序,深入研究了影响银屑病发生发展的编码变异。
值得指出的是,张学军教授target sequecing了9946银屑病患者和10689对照,建立起了中国汉族人MHC区域的变异数据库。数据可以在Giga database免费下载(gigadb.org/dataset/100156),这是中国汉族人第一个MHC区域的large-scale reference panel。此研究结果以article形式发表在Nature Genetics。
Nature Genetics 2016年6月28日的editorial《Genome variation in precision medicine》特别评述了上述研究成果。
NGS的开展并没有像GWAS研究那么成功与成熟,其中一个主要原因是NGS价格还是比较昂贵,限制了大规模开展,而发现罕见变异需要的就是大样本量。
从GWAS到NGS,从常见变异到罕见变异,发表了数千篇文章,但是科学家的疑问却越来越多,怎么解释GWAS所发现的这么多associations?
最近Cell上发表的一篇综述提出泛基因性(Omnigenic)假说代替之前的多基因性(Polygenic),在逻辑上解释了很多之前复杂疾病GWAS研究所观察到的现象,所遇到的问题(Boyle EA, Li YI, Pritchard JK. An Expanded View of Complex Traits: From Polygenic to Omnigenic. Cell. 2017 Jun 15;169(7):1177-1186.)。
Pritchard等在重新分析了之前多个GWAS consortium的数据(包括GIANT)以后,很大胆地提出复杂疾病可能是由某种细胞表达的几十到上百个核心基因(Core gene)和所有细胞上表达的上万个外周基因(Peripheral gene)共同组成的细胞网络作用导致发病,核心基因的效应比较大,可能由现有的GWAS发现,并且可能在可以解释的生物学通路上。外周基因的效应较小,有可能在毫不相干的通路上。
Omnigenic与Polygenic的区别在于,Omnigenic假说认为影响复杂疾病的基因是由上百个核心基因和上万个外周基因共同起作用,核心基因可能在疾病的发生通路上,外周基因可能是细胞网络上的节点。Polygenic假说认为,复杂疾病由几百上千个微效基因共同作用的结果。
此假说初读时觉得新颖,仔细品读后会发现并非颠覆性观点,更没有国内部分自媒体宣扬的“撼动精准医学根基”“权威质疑GWAS研究价值”(请看本文最后一段)。
所谓分久必合,合久必分。科学研究由宏观到微观,再由微观回到宏观。
GWAS的研究设计在哲学上是由宏观到微观,由复杂到简单的一个过程。从DNA到疾病的发生,中间还有很多环节,DNA到RNA,RNA到蛋白质,蛋白质到细胞,细胞到组织,组织到器官,器官到病变,中间每一步的调控都是未知过程。现代生物学研究都假定除研究对象以外的因素都不变,来研究某个因素的变化对另一个因素的影响。
GWAS研究把复杂问题简单化,忽略DNA到疾病的中间环节(黑盒子,Black box),直接研究DNA的变化对疾病的影响。现阶段依然是GWAS研究的数据积累过程,等积累到一定程度,数据分析方法发展到一定程度,能够整合DNA数据,RNA数据,蛋白质数据等等,再由微观到宏观,由简单到复杂。
Pritchard最后提到他已经着手在做cellular network的事情(从何着手?)。
如果GWAS已经找到core gene,Pritchard依然建议做外显子测序和全基因组测序来找效应大的罕见变异(Rare variant with big effect),但并不是所有复杂性状都适合做高通量测序。笔者建议癌症可以尝试做。中国现在还未有大样本量的全基因组测序数据。另外,Pritchard依然建议做更大规模的GWAS,因为大规模的GWAS可能有利于个性化疾病预测,也可能有利于Cellular nework的建立。所以Pritchard并未反对Large-scale genotyping,只是,Pritchard的Omnigenic观点确实给我们指明一个新的方向,笔者认为应该调整之后研究关注的侧重点,以Omnigenic为方向,发展整合DNA-seq(包括genotyping),RNA-seq,CHIP-seq,Hi-C等等各个层面数据的分析方法,涉及基因序列,基因表达,表观遗传,DNA三维结构等,研究细胞调控网络!笔者大胆预测,AI将是生物学大数据分析必不可少的工具。
了解更多相关内容,请扫描下图并关注:
基因姑娘GeneGirl由国家中组部青年“千人计划”专家团队发起,主旨三个板块:基因与健康知识科普,数据分析软件学习,科学界与西湖大学。基调是:在好玩中学习,在学习中好玩。轻松了解基因的故事。解读基因检测。